03. 练习:解析策略

练习:解析策略

策略决定了智能体如何根据当前状态选择动作。换句话说,它指定了智能体如何对环境提供的情形做出响应。

思考下上节课的回收机器人 MDP。

确定性策略:示例

示例确定性策略 \pi: \mathcal{S}\to\mathcal{A} 可以指定为:

\pi(\text{low}) = \text{recharge}

\pi(\text{high}) = \text{search}

在这种情况下,

  • 如果电池电量很低,智能体选择充电
  • 如果电池电量很高,智能体选择搜索易拉罐。

问题 1

思考另一个确定性策略 \pi: \mathcal{S}\to\mathcal{A},其中:

\pi(\text{low}) = \text{search}

\pi(\text{high}) = \text{search}

如果智能体遵守策略的话,以下哪些陈述正确(请选中所有适用项。)

SOLUTION:
  • 如果状态是_电量很低_,智能体选择动作_搜索_。
  • 智能体将在每个时间步都_搜索_易拉罐(无论电量是_很低_ 还是 _很高_)。

随机性策略:示例

示例随机性策略 \pi: \mathcal{S}\times\mathcal{A}\to [0,1] 可以指定为:

\pi(\text{recharge}|\text{low}) = 0.5

\pi(\text{wait}|\text{low}) = 0.4

\pi(\text{search}|\text{low}) = 0.1

\pi(\text{search}|\text{high}) = 0.9

\pi(\text{wait}|\text{high}) = 0.1

在这种情况下,

  • 如果电池电量很低,智能体充电的概率是 50%,等待易拉罐的概率是 40%,搜索易拉罐的概率是 10%。
  • 如果电池电量很高,智能体搜索易拉罐的概率是 90%,等待易拉罐的概率是 10%。

问题 2

思考另一个不同的随机性策略 \pi: \mathcal{S}\times\mathcal{A}\to [0,1],其中:

\pi(\text{recharge}|\text{low}) = 0.3

\pi(\text{wait}|\text{low}) = 0.5

\pi(\text{search}|\text{low}) = 0.2

\pi(\text{search}|\text{high}) = 0.6

\pi(\text{wait}|\text{high}) = 0.4

如果智能体遵守策略的话,以下哪些陈述正确(请选中所有适用项。)

SOLUTION:
  • 如果电池电量_很低_,智能体最有可能决定_等待_易拉罐。